我们很高兴地宣布了一一系列更新,包括更多模型的支持和很多实用的功能增强。具体如下:
模型支持更新:
- 增加了对Amazon Bedrock和Groq平台上模型的支持,扩大了可评估模型的范围。
- 与Ollama集成,允许您通过隧道评估本地模型,打破了评估的地域限制。
- 扩展了中文模型提供商,新增了8个选项:百度文心、ChatGLM、MoonShot、阿里通义千问、百川、讯飞、天工和MiniMax。这为评估中文模型提供了更多选择。
功能增强:
- 您现在可以导出样本和变量,方便数据的归档和共享。
- 克隆运行时具有更大的灵活性,支持多级别克隆,满足不同场景的需求。
- 在创建/克隆运行时,可以自定义温度和最大令牌数,实现更精细的控制。
- 为私有模型设置最大线程数,优化资源利用。
- 保存对话消息为模板样本,加快后续评估的准备工作。
- 启用手动评估并支持评分,为主观评估提供便利。
- 新增平均完成时间和模型生成稳定性指数(MGSI)作为新的基准报告指标。
- 这些更新为用户提供了更多模型选择、更好的定制化能力和更高的效率。如果您有任何疑问,欢迎随时与我们联系。EvalsOne将继续致力于改进和创新,为AI模型评估提供更出色的体验。
这些功能能够帮助您更好地评估和优化大型语言模型的提示语,提高AI应用的质量和用户体验。我们希朥您能够喜欢这些更新,也期待您的反馈和建议。
EvalsOne的内测计划正在进行中,现在可以加入我们的waitlist,第一时间体验先进的提示语评估平台,并利用它开始构建更好的AI应用。快行动起来吧!